计算机符号和原码和反码以及位运算

文章目录
  1. 1. 为什么1bit对应 8 byte
  2. 2. 为什么计算机需要编码
  3. 3. 计算机数字表示

为什么1bit对应 8 byte

此处引用至 一文读懂字符编码 - 知乎

ASCII 编码字符串都是这样

我们知道计算机的世界只有0和1,如果没有字符编码,我们看到的就是一串”110010100101100111001….”,我们的沟通就好像是在对牛弹琴,我看不懂它,它看不懂我。字符编码就好比人类和机器之间的翻译程序,把我们熟知的字符文字翻译成机器能读懂的二进制,同时把二进制翻译成我们能看懂的字符。以下是百科对字符编码的解释

字符编码(Character encoding)也称字集码,是把字符集中的字符,编码为指定集合中的某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储或者通信网络的传递。常见的例子是将拉丁字母表编码成摩斯电码和ASCII,比如ASCII编码是将字母、数字和其它符号进行编号,并用7比特的二进制来表示这个整数。字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。计算机要准确的处理各种字符集文字,就需要进行字符编码,以便计算机能够识别和存储各种文字。

为什么计算机需要编码

编码(Encode)是信息从一种形式转换为另一种形式的过程,比如用预先规定的方法将字符(文字、数字、符号等)、图像、声音或其它对象转换成规定的电脉冲信号或二进制数字。我们现在看到的一幅幅图画,听到的一首首音乐,甚至我们写的一行行代码,敲下的一个个字符,所看到的所听到的都是那么的真实,但其实在背后都是一串「01」的数字,你昨天在手机上看到的那个心动女孩,真实世界中并不存在,只是计算机用「01」数字帮你生成的“骷髅”而已。

二进制 十进制 十六进制 缩写 Unicode 表示法 脱出字符 表示法 名称/意义
0000 0000 0 00 NUL ^@ 空字符(Null)
0000 0001 1 01 SOH ^A 标题开始
0000 0010 2 02 STX ^B 本文开始
0000 0011 3 03 ETX ^C 本文结束
0000 0100 4 04 EOT ^D 传输结束
0000 0101 5 05 ENQ ^E 请求
0000 0110 6 06 ACK ^F 确认回应
0000 0111 7 07 BEL ^G 响铃
0000 1000 8 08 BS ^H 退格
0000 1001 9 09 HT ^I 水平定位符号
0000 1010 10 0A LF ^J 换行键
0000 1011 11 0B VT ^K 垂直定位符号
0000 1100 12 0C FF ^L 换页键
0000 1101 13 0D CR ^M CR (字符)
0000 1110 14 0E SO ^N 取消变换(Shift out)
0000 1111 15 0F SI ^O 启用变换(Shift in)
0001 0000 16 10 DLE ^P 跳出数据通讯
0001 0001 17 11 DC1 ^Q 设备控制一(XON 激活软件速度控制
0001 0010 18 12 DC2 ^R 设备控制
0001 0011 19 13 DC3 ^S 设备控制三(XOFF 停用软件速度控制
0001 0100 20 14 DC4 ^T 设备控制
0001 0101 21 15 NAK ^U 确认失败回应
0001 0110 22 16 SYN ^V 同步用暂停
0001 0111 23 17 ETB ^W 区块传输结束
0001 1000 24 18 CAN ^X 取消
0001 1001 25 19 EM ^Y 连线介质中断
0001 1010 26 1A SUB ^Z 替换
0001 1011 27 1B ESC ^[ 退出键
0001 1100 28 1C FS ^\ 文件分割符
0001 1101 29 1D GS ^] 组群分隔符
0001 1110 30 1E RS ^^ 记录分隔符
0001 1111 31 1F US ^_ 单元分隔符
0111 1111 127 7F DEL ^? Delete字符
二进制 十进制 十六进制 图形
0010 0000 32 20 (space)
0010 0001 33 21 !
0010 0010 34 22
0010 0011 35 23 #
0010 0100 36 24 $
0010 0101 37 25 %
0010 0110 38 26 &
0010 0111 39 27
0010 1000 40 28 (
0010 1001 41 29 )
0010 1010 42 2A *
0010 1011 43 2B +
0010 1100 44 2C ,
0010 1101 45 2D -
0010 1110 46 2E .
0010 1111 47 2F /
0011 0000 48 30 0
0011 0001 49 31 1
0011 0010 50 32 2
0011 0011 51 33 3
0011 0100 52 34 4
0011 0101 53 35 5
0011 0110 54 36 6
0011 0111 55 37 7
0011 1000 56 38 8
0011 1001 57 39 9
0011 1010 58 3A :
0011 1011 59 3B ;
0011 1100 60 3C <
0011 1101 61 3D =
0011 1110 62 3E >
0011 1111 63 3F ?
0100 0000 64 40 @
0100 0001 65 41 A
0100 0010 66 42 B
0100 0011 67 43 C
0100 0100 68 44 D
0100 0101 69 45 E
0100 0110 70 46 F
0100 0111 71 47 G
0100 1000 72 48 H
0100 1001 73 49 I
0100 1010 74 4A J
0100 1011 75 4B K
0100 1100 76 4C L
0100 1101 77 4D M
0100 1110 78 4E N
0100 1111 79 4F O
0101 0000 80 50 P
0101 0001 81 51 Q
0101 0010 82 52 R
0101 0011 83 53 S
0101 0100 84 54 T
0101 0101 85 55 U
0101 0110 86 56 V
0101 0111 87 57 W
0101 1000 88 58 X
0101 1001 89 59 Y
0101 1010 90 5A Z
0101 1011 91 5B [
0101 1100 92 5C [](https://zh.wikipedia.org/wiki/反斜线)
0101 1101 93 5D []](https://zh.wikipedia.org/wiki/括號)
0101 1110 94 5E ^
0101 1111 95 5F _
0110 0000 96 60 [`](https://zh.wikipedia.org/wiki/重音符)
0110 0001 97 61 a
0110 0010 98 62 b
0110 0011 99 63 c
0110 0100 100 64 d
0110 0101 101 65 e
0110 0110 102 66 f
0110 0111 103 67 g
0110 1000 104 68 h
0110 1001 105 69 i
0110 1010 106 6A j
0110 1011 107 6B k
0110 1100 108 6C l
0110 1101 109 6D m
0110 1110 110 6E n
0110 1111 111 6F o
0111 0000 112 70 p
0111 0001 113 71 q
0111 0010 114 72 r
0111 0011 115 73 s
0111 0100 116 74 t
0111 0101 117 75 u
0111 0110 118 76 v
0111 0111 119 77 w
0111 1000 120 78 x
0111 1001 121 79 y
0111 1010 122 7A z
0111 1011 123 7B {
0111 1100 124 7C |
0111 1101 125 7D }
0111 1110 126 7E ~

计算机数字表示

在计算机中,有符号数和无符号数的区别主要体现在以下三个方面:

  1. 符号位的定义与数值范围
    有符号数的最高位(二进制最左侧位)被定义为符号位:
    0 表示正数,其余位表示数值大小(如 01111111 表示 +127)
    1 表示负数,其余位存储补码形式的数值(如 10101111 表示 -81)
    而无符号数所有位都用于表示数值大小,因此 正数范围比同位数有符号数大一倍(例如 8 位无符号数范围是 0-255,而有符号数范围是 -128~127)

  2. 补码转换规则
    负数在计算机中以补码形式存储。补码的计算步骤为:
    原码 → 符号位不变,其余位取反 → 末位 +1
    例如 -81 的补码转换过程:
    原码:10100001 → 取反后:11011110 → 加 1 → 11011111(即 0xAF
    补码的作用是统一加减法运算逻辑,简化硬件设计

  3. 类型转换时的截断与符号扩展
    当长位数据(如 Int)转换为短位类型(如 Byte)时:
    截断规则:直接保留低位字节(如 0xFFFFFFAF0xAF
    符号位识别:目标类型若为有符号,则最高位决定正负(如 0xAF 的最高位为 1,解析为负数)
    在 Scala 中,Byte 默认是有符号类型,因此 0xAF 会被解析为 -81。若需无符号处理,需通过 & 0xFF 强制转换为正数

具体代码分析

1
println((-81.toInt).toByte)  // 输出 -81

-81.toInt 的补码是 0xFFFFFFAF(32位)
.toByte 截断后保留 0xAF(二进制 10101111
• 有符号 Byte 将最高位 1 识别为负号,剩余位 0101111 的补码还原为 81,最终结果为 -81

无符号处理对比
若强制转换为无符号数(例如使用 (pd(0) & 0xFF)):

1
2
val byteValue: Byte = 0xAF.toByte  // -81(有符号)
val unsignedValue = byteValue & 0xFF // 175(无符号)

此时 0xAF 会被视为 175,因为 & 0xFF 将符号位清零,并扩展为 32 位整数

总结
有符号/无符号的区分本质是程序对二进制位的解释规则不同,而计算机存储的二进制数据本身没有符号属性。这一特性在涉及跨数据类型转换(如 IntByte)或位运算时需要特别注意。